بازشناسی مقاوم گفتار تلفنی فارسی مبتنی بر روش سری های تیلور برداری

thesis
  • وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد - دانشکده فنی و مهندسی
  • author محسن قدیانی
  • adviser منصور ولی
  • Number of pages: First 15 pages
  • publication year 1389
abstract

برای مقاوم سازی سیستم بازشناسی گفتار در برابر عوامل مزاحم محیطی (نویز جمع شونده، اثر اعوجاج کانال انتقال و نویزهای گذرا) سه ایده کلی وجود دارد: 1- استخراج وی‍ژگی های مقاوم(robust feature extraction) 2- بهبود کیفیت بردارهای بازنمایی (feature enhancement) 3- اصلاح مدل بازشناسی صوتی (acoustic model compensation) در ایده اول سعی می شود تا از ویژگی ها و پارمترهایی از سیگنال گفتار برای ساخت بردارهای صوتی بازنمایی استفاده شود (feature هایی انتخاب شوند) که تنها تابعی از خود سیگنال گفتار بوده و ذاتا در برابر نویز مقاوم اند، یعنی در حضور نویز تغییر چندانی نمی کنند. در نتیجه بردارهای بازنمایی حاصل از این feature ها برای سیگنال گفتار تخریب شده توسط نویز تا حدود زیادی شبیه به بردارهای بازنمایی سیگنال گفتار تمیز هستند. بنابراین بردارهای بازنمایی استخراج شده در برابر نویز مقاوم خواهند بود. از جمله مهمترین تکنیک های مورد استفاده در این راستا، "نظریه دادگان مفقود" (missing feature approaches) است. در ایده دوم یعنی ارتقا کیفیت بردارهای بازنمایی ، این بردارها به یکی از روش های متداول (مانند mfcc) از فریم های سیگنال گفتار استخراج می شوند ، اما قبل از اعمال به مدل بازشناسی صوتی به گونه ای اصلاح می شوند که تا حد ممکن مشابه با بردارهای بازنمایی سیگنال گفتار تمیز باشند. سپس این بردارهای بازنمایی اصلاح شدهبه یکی از مدل های صوتی بازشناسی متداول اعمال می شوند تا کلاس آوایی مناسب برای هر بردار بازنمایی تعیین شود. در واقع می توان این گونه فرض کرد که یک بلوک پیش پردازنده بین بلوک های استخراج ویژگی و مدل صوتی قرار می گیرد که وظیفه آن اصلاح بردارهای بازنمایی صوتی است. تکنیک بردار سری تیلور (vector taylor series)از جمله بهترین روش های موجود در این زمینه به شمار می رود. سومین ایده بر پایه جبران سازی ضعف های مدل صوتی بازشناسی است. استخراج بردارهای بازنمایی به یکی از روش های معمول صورت می گیرد و در نتیجه بردارهای بازنمایی شامل ویژگی های سیگنال گفتار تخریب شده به مدل صوتی بازشناسی اعمال می شوند، اما مدل به گونه ای تقویت شده است که قابلیت استخراج کلاس های آوایی صحیح برای هر بردار بازنمایی را داراست. امروزه از روش های متفاوتی برای بالاتر بردن نرخ بازشناسی (recognition rate) استفاده می شود که بسته به مشخصات سیگنال گفتار (مقدار snr ، تلفنی بودن یا نبودن آن و اطلاعات اولیه موجود) و نویز موجود بر روی آن (نویز جمع شونده ، اثر اعوجاج کانال یا نویزهای گذرا) انتخاب می شوند. در بسیاری از موارد نیز از ترکیبی از این تکنیک ها برای کاراتر شدن سیستم بازشناسی گفتار استفاده می شود در چند سال اخیر ، دو تکنیک " نظریه دادگان مفقود" (missing feature approaches) و " بردار سری تیلور " (vts) به شکل گسترده ای در سیستم های بازشناسی گفتار به کار گرفته شده و تحقیقات وسیعی در زمینه افزایش کارایی آن ها صورت گرفته است. به گونه ای که در حال حاضر، این دو تکنیک پر کاربردترین و بهینه ترین متدهای مورد استفاده در بازشناخت سیگنال گفتار تخریب شده توسط نویز محیطی به شمار می روند. این دو تکنیک به ویژه در مواردی که نسبت سیگنال به نویز پایین است ، راندمان بسیار مناسبی دارند. تکنیک های حذف نویز جمع شونده و اثر کانال در حالت کلی فرضیاتی را در زمینه سیگنال گفتار تمیز و شرایط محیطی در نظر می گیرند و به این وسیله feature های گفتار نویزی را به گفتار تمیز تبدیل می کنند. در بین این تکنیک ها، vts طرفداران فراوانی دارد، چون این قابلیت را دارد که با یک مدل خطی ساده، اثرات اغتشاش های کاملا غیر خطی را حذف کند. در تکنیک vts ، feature های گفتار تمیز با مجموعی از یک توزیع گوسی(gmm) مدل می شوند و سپس پارامترهای این مدل) (?,m با استفاده از بسط تیلور بردارهای ویژگی سیگنال گفتار تخریب شده بر اثر نویز و کانال محاسبه می شوند. پارامترهای توزیع گوسی در نظر گرفته شده برای نویز و همچنین پارامترهای کانال انتقال از طریق اعمال الگوریتم em و با update شدن مکرر در طی چند iteration تخمین زده می شوند. با استفاده از الگوریتم vts می توان بردار ویژگی های سیگنال گفتار تمیز x را از روی سیگنال نویزی تخمین زد. در این حالت فرض می کنیم pdf بردار ویژگی گفتار تمیز با یک توزیع گوسی مدل می شود. در پروژه حاضر ، از بانک دادگان گفتار تلفنی فارسی farsdat به عنوان مجموعه دادگان تعلیم و تست سیستم بازشناسی گفتار استفاده می شود: ابتدا به سیگنال گفتار فوق ، نویز جمع شونده افزوده شده و سپس حاصل از یک کانال انتقال ناشناخته عبور می کند تا بانک دادگان گفتار تلفنی نویزی به دست آید. سپس این مجموعه به دو بخش دادگان train و دادگان test تقسیم می شود. دادگان train به سیستم بازشناسی گفتار اعمال شده و بردارهای بازنمایی سیگنال گفتار تخریب شده به روش mfcc استاندارد (هر بردار بازنمایی شامل 12 ضریب کپستروم و لگاریتم انرژی فیلتر بانک به همراه مشتقات اول و دوم آن ها) استخراج می شوند. سپس این بردارهای بازنمایی با استفاده از تکنیک vts اصلاح می شوند تا بردارهای حاصل تا حد ممکن نزدیک به بردارهای ویژگی گفتار تلفنی تمیز باشند. این بردارهای بازنمایی به مدل صوتی بازشناسی اعمال می شوند تا در پروسه تعلیم آن مورد استفاده قرار گیرند. پس از تعلیم سیستم ، از باقیمانده دادگان تخریب شده برای تست و ارزیابی عملکرد سیستم بازشناسی طراحی شده استفاده می کنیم. همین مراحل برای یک سیستم بازشناسی معمولی (بدون اصلاح بردارهای بازنمایی)انجام می شود و نتایج حاصل از دو روش (با اصلاح بردارهای بازنمایی و بدون اصلاح بردارهای بازنمایی) به ازای نسبت های سیگنال به نویز مختلف با هم مقایسه می شوند تا میزان بهبود ایجاد شده در عملکرد قابل اندازه گیری باشد.

First 15 pages

Signup for downloading 15 first pages

Already have an account?login

similar resources

روشی جدید در بازشناسی مقاوم گفتار مبتنی بر دادگان مفقود با استفاده از شبکه عصبی دوسویه

Performance of speech recognition systems is greatly reduced when speech corrupted by noise. One common method for robust speech recognition systems is missing feature methods. In this way, the components in time - frequency representation of signal (Spectrogram) that present low signal to noise ratio (SNR), are tagged as missing and deleted then replaced by remained components and statistical ...

full text

بررسی اثرات خطوط تلفنی بر روی سیگنال صوتی و جبران اثرات نویز تلفنی بر سیستم بازشناسی گفتار فارسی

شرایط محیطی دریافت صوت از جمله محدودیت پهنای باند در کانال انتقال استفاده از وسایل با کیفیت پایین و اثر میکروفن بعنوان نویز کانوالو شونده و همچنین اثرات جریان هوا و گفتگوهای زمینه و .... بعنوان نویز جمع شونده باعث افت آشکار در کارایی سیستم های بازشناسی گفتار می شود. هدف از روشهای مقاوم سازی در برابر نویز کم کردن عدم تطابق بین توزیع بردارهای ویژگی در تشخیص دهنده و داده ا آزمون و بالابردن کارایی ...

15 صفحه اول

از سری های تیلور تا حرکت براونی

این مقاله دعوت به یک گردش است. نقطه عزیمت ما در این سفر، برل و شعار تحریک آمیز او در سال 1896 است با این مضمون که دایره همگرایی یک سری تیلور، در حالت کلی یک برش برای این سری است. در این گردش برخی از پیامدهای برجسته این شعار را بیان می کنیم. مسیرمان ادامه پیدا می کند تا تعریف حرکت براونی که با کارهای پل لوی منزلت یافت.

full text

پایه‌گذاری بستری نو و کارآمد در حوزه بازشناسی گفتار فارسی

Although researches in the field of Persian speech recognition  claim  a  thirty-year-old  history in Iran  which has achieved considerable progresses, due to the lack of well-defined experimental framework, outcomes from many of these researches are not comparable to each other and their accurate assessment won’t be possible. The experimental framework includes ASR toolkit and speech database ...

full text

ارتقاء کیفیت بازشناسی گفتار تلفنی و غیر تلفنی با استفاده از اشتراک دانش آوایی دادگان

سیستمهای بازشناسی مقاوم گفتار به سیستمهایی اطلاق می گردد که در شرایط عدم انطباق داده های آموزش و آزمون صحت بازشناسی قابل قبولی داشته باشند. در تحقیق حاضر یک سیستم بازشناسی مقاوم گفتار تلفنی، مبتنی بر اصلاح بردارهای بازنمایی توسط شبکه عصبی دوسویه (یک شبکه عصبی چند لایه معمولی به علاوه یک شاخه برگشتی که اطلاعات لایه مخفی شبکه را با ورودی شبکه ترکیب می کند) و مدلهای مخفی مارکف به عنوان مدلهای بازش...

15 صفحه اول

رتبه‌بندی واج‌های گفتار فارسی از نظر کارآیی در بازشناسی گوینده

در این مقاله، کارآیی واج­های گفتار فارسی از نظر بازشناسی گوینده مورد مطالعه و پژوهش قرار گرفته و با توجه به میزان کارآیی­ها، رتبه­بندی واج­ها صورت گرفته‌اند. جهت برآورد کارآیی واج­ها، از یک معیاری که به­صورت نسب « فاصلة بین­گوینده­ای» واج­ها به « فاصلة در گوینده‌ای» تعریف شده است و ما آن را « نسبت تأثیرپذیری گوینده » نامیده­ایم، استفاده شده است.­ آزمایش­ها و محاسبات لازم برای کلیه واج­های گفتار...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


document type: thesis

وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد - دانشکده فنی و مهندسی

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023